智能论文笔记

On-Device Spatial Attention based Sequence Learning Approach for Scene Text Script Identification

Rutika Moharir , Arun D Prabhu , Sukumar Moharana , Gopi Ramena , Rachit S Munjal

分类：计算机视觉

2021-12-01

自动识别脚本是多语言OCR引擎的重要组成部分。在本文中，我们介绍了基于CNN-LSTM网络的高效，轻量级，实时和设备空间关注，用于场景文本脚本标识，可在资源受限移动设备上部署部署。我们的网络由CNN组成，配备有空间注意模块，有助于减少自然图像中存在的空间扭曲。这允许特征提取器在忽略畸形的同时产生丰富的图像表示，从而提高了该细粒化分类任务的性能。该网络还采用残留卷积块来构建深度网络以专注于脚本的鉴别特征。 CNN通过识别属于特定脚本的每个字符来学习文本特征表示，并且使用LSTM层的序列学习能力捕获文本内的长期空间依赖关系。将空间注意机制与残留卷积块相结合，我们能够增强基线CNN的性能，以构建用于脚本识别的端到端可训练网络。若干标准基准测试的实验结果证明了我们方法的有效性。该网络实现了最先进的方法竞争准确性，并且在网络尺寸方面优越，总共仅为110万个参数，推理时间为2.7毫秒。

translated by 谷歌翻译

联合学习（FL）是分布式学习的一种变体，其中Edge设备可以协作学习模型，而无需与中央服务器或彼此共享数据。我们将使用公共客户库作为多模型FL的联合设置中同时培训多个独立模型的过程。在这项工作中，我们提出了用于多模型FL的流行FedAvg算法的两个变体，并具有可证明的收敛保证。我们进一步表明，对于相同数量的计算，多模型FL可以比单独训练每个模型具有更好的性能。我们通过在强凸，凸和非凸面设置中进行实验来补充理论结果。

translated by 谷歌翻译

联合学习是一种分布式学习的形式，具有关键挑战，是参与客户端中数据的非相同分布性质。在本文中，我们将联合学习扩展到多个无相关模型同时培训的设置。具体而言，每个客户端都能够一次训练M个模型中的任何一个，并且服务器维护每个M模型的模型，其通常是由客户端计算的模型的适当平均版本。我们提出了多次将学习任务分配给客户的多项政策。在第一个政策中，我们将广泛研究的FASHVG通过将模型分配给I.I.D中的客户来扩展到多模型学习。随机的方式。此外，我们在多模型联合设置中提出了两个新的客户选择策略，这是基于每个客户模型对的当前本地损失的决策。我们比较涉及合成和现实世界数据的任务的政策的表现，并表征拟议的政策的表现。远离我们的工作的关键是，所提出的多模型政策更好地表现出更好或至少与使用FEDAVG的单一模型培训一样好。

translated by 谷歌翻译